期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于知识图谱驱动的图神经网络推荐模型
刘欢, 李晓戈, 胡立坤, 胡飞雄, 王鹏华
计算机应用    2021, 41 (7): 1865-1870.   DOI: 10.11772/j.issn.1001-9081.2020081254
摘要673)      PDF (991KB)(698)    收藏
知识图谱(KG)蕴含丰富的结构与关联信息,不仅可以缓解推荐系统中数据稀疏、冷启动等问题,还可以更准确地进行个性化推荐,因此提出一种基于知识图谱驱动的端到端图神经网络推荐模型KGLN。首先使用单层神经网络框架对图中单个节点进行特征融合,并加入影响因子来改变不同邻居实体的聚合权重;然后通过迭代的方式将单层扩展到多层,使实体可以获得丰富的多阶关联实体信息;最后结合实体特征与用户特征产生预测评分进行推荐。分析并研究了不同聚合方法及影响因子对推荐效果的影响。实验结果表明,在数据集MovieLens-1M以及Book-Crossing上与基准方法因子分解库(LibFM)、深度分解机(DeepFM)、Wide&Deep、RippleNet的对比中,KGLN的曲线下面积(AUC)分别提升了0.3%~5.9%和1.1%~8.2%。
参考文献 | 相关文章 | 多维度评价
2. 基于多注意力长短时记忆的实体属性情感分析
支淑婷, 李晓戈, 王京博, 王鹏华
计算机应用    2019, 39 (1): 160-167.   DOI: 10.11772/j.issn.1001-9081.2018061232
摘要519)      PDF (1273KB)(329)    收藏
属性情感分析是细粒度的情感分类任务。针对传统神经网络模型无法准确构建属性情感特征的问题,提出了一种融合多注意力和属性上下文的长短时记忆(LSTM-MATT-AC)神经网络模型。在双向长短时记忆(LSTM)的不同位置加入不同类型的注意力机制,充分利用多注意力机制的优势,让模型能够从不同的角度关注句子中特定属性的情感信息,弥补了单一注意力机制的不足;同时,融合双向LSTM独立编码的属性上下文语义信息,获取更深层次的情感特征,有效识别特定属性的情感极性;最后在SemEval2014 Task4和Twitter数据集上进行实验,验证了不同注意力机制和独立上下文处理方式对属性情感分析模型的有效性。实验结果表明,模型在Restaurant、Laptop和Twitter领域数据集上的准确率分别达到了80.6%、75.1%和71.1%,较之前基于神经网络的情感分析模型在准确率上有了进一步的提高。
参考文献 | 相关文章 | 多维度评价
3. 基于表示学习的中文分词
刘春丽, 李晓戈, 刘睿, 范贤, 杜丽萍
计算机应用    2016, 36 (10): 2794-2798.   DOI: 10.11772/j.issn.1001-9081.2016.10.2794
摘要571)      PDF (754KB)(587)    收藏
为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用 K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别。对词向量的维数、聚类数及不同聚类算法对分词的影响进行了分析。基于第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料进行测试,实验结果表明,在未利用外部知识的条件下,分词的 F值和OOV识别率分别达到95.67%和94.78%,证明了将字的聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能。
参考文献 | 相关文章 | 多维度评价
4. 互信息改进方法在术语抽取中的应用
杜丽萍, 李晓戈, 周元哲, 邵春昌
计算机应用    2015, 35 (4): 996-1000.   DOI: 10.11772/j.issn.1001-9081.2015.04.0996
摘要774)      PDF (783KB)(716)    收藏

为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。

参考文献 | 相关文章 | 多维度评价